José es un diseñador de juegos de mesa. Crea las reglas, diseña los gráficos, escoge su tema, número de jugadores y duración promedio del juego que tiene en mente. José es una persona tímida, y a pesar de que sus juegos suelen gustarle a sus amigos, él nunca ha querido publicarlos por miedo a que no sean bien recibidos. Se quiere demostrar a José, con una base de datos de calificaciones históricas de juegos de mesa, cómo hubieran sido recibidos sus juegos en promedio en la época que los fue creando.
Los datos a utilizar vienen de esta base de datos: (board_games)* que, en cambio, vienen de la página Board Game Geek.
Procedemos para empezar en instalar los siguientes paquetes, se puede omitir este paso si ya se tienen previamente instalados. Aquí una lista de los cuales vamos a necesitar.
#install.packages("data.table")
#install.packages("h2o")
#install.packages("ggplot2")
#install.packages("ggthemes")
#install.packages("data.tree")
#install.packages("tidyverse")
#install.packages("modeldata")
#install.packages("DataExplorer")
#install.packages("vtree")
#install.packages("caTools")
#install.packages("rpart")
#install.packages("rpart.plot")
#install.packages("lares")
#install.packages("tidymodels")
#install.packages("h2o")
#install.packages("caret")
#install.packages("doParallel")
#install.packages("caTools")
Usando ‘library’ cargamos las librerías, con las cuales vas a hacer uso de las diferentes funciones.
library("data.table")
library("h2o")
##
## ----------------------------------------------------------------------
##
## Your next step is to start H2O:
## > h2o.init()
##
## For H2O package documentation, ask for help:
## > ??h2o
##
## After starting H2O, you can use the Web UI at http://localhost:54321
## For more information visit https://docs.h2o.ai
##
## ----------------------------------------------------------------------
##
## Attaching package: 'h2o'
## The following objects are masked from 'package:data.table':
##
## hour, month, week, year
## The following objects are masked from 'package:stats':
##
## cor, sd, var
## The following objects are masked from 'package:base':
##
## %*%, %in%, &&, ||, apply, as.factor, as.numeric, colnames,
## colnames<-, ifelse, is.character, is.factor, is.numeric, log,
## log10, log1p, log2, round, signif, trunc
library("ggplot2")
library("ggthemes")
library("data.tree")
library("tidyverse")
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v tibble 3.1.2 v dplyr 1.0.6
## v tidyr 1.1.3 v stringr 1.4.0
## v readr 1.4.0 v forcats 0.5.1
## v purrr 0.3.4
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::between() masks data.table::between()
## x dplyr::filter() masks stats::filter()
## x dplyr::first() masks data.table::first()
## x dplyr::lag() masks stats::lag()
## x dplyr::last() masks data.table::last()
## x purrr::transpose() masks data.table::transpose()
library("modeldata")
library("DataExplorer")
library("vtree")
library("caTools")
library("rpart")
library("rpart.plot")
library("lares")
library("tidymodels")
## Registered S3 method overwritten by 'tune':
## method from
## required_pkgs.model_spec parsnip
## -- Attaching packages -------------------------------------- tidymodels 0.1.3 --
## v broom 0.7.6 v rsample 0.1.0
## v dials 0.0.9 v tune 0.1.5
## v infer 0.5.4 v workflows 0.2.2
## v parsnip 0.1.6 v workflowsets 0.0.2
## v recipes 0.1.16 v yardstick 0.0.8
## -- Conflicts ----------------------------------------- tidymodels_conflicts() --
## x dplyr::between() masks data.table::between()
## x yardstick::conf_mat() masks lares::conf_mat()
## x scales::discard() masks purrr::discard()
## x dplyr::filter() masks stats::filter()
## x dplyr::first() masks data.table::first()
## x recipes::fixed() masks stringr::fixed()
## x dplyr::lag() masks stats::lag()
## x dplyr::last() masks data.table::last()
## x yardstick::mae() masks lares::mae()
## x yardstick::mape() masks lares::mape()
## x dials::prune() masks rpart::prune()
## x yardstick::rmse() masks lares::rmse()
## x yardstick::rsq() masks lares::rsq()
## x yardstick::spec() masks readr::spec()
## x recipes::step() masks stats::step()
## x purrr::transpose() masks data.table::transpose()
## * Use tidymodels_prefer() to resolve common conflicts.
library("h2o")
library("caret")
## Loading required package: lattice
##
## Attaching package: 'caret'
## The following objects are masked from 'package:yardstick':
##
## precision, recall, sensitivity, specificity
## The following object is masked from 'package:purrr':
##
## lift
library("doParallel")
## Loading required package: foreach
##
## Attaching package: 'foreach'
## The following objects are masked from 'package:purrr':
##
## accumulate, when
## Loading required package: iterators
## Loading required package: parallel
library("caTools")
En este caso usamos read.csv. Procedemos a leer:
board_games <- read.csv("./board_games.csv")
head(board_games)
Después de una rápida observación, ejecutamos los siguientes comandos para confirmación:
colnames(board_games)
## [1] "game_id" "description" "image" "max_players"
## [5] "max_playtime" "min_age" "min_players" "min_playtime"
## [9] "name" "playing_time" "thumbnail" "year_published"
## [13] "artist" "category" "compilation" "designer"
## [17] "expansion" "family" "mechanic" "publisher"
## [21] "average_rating" "users_rated"
Usando data explorer observamos el tipo de variables, casi tenemos el mismo porcentaje para las discretas y continua, y tenemos un bajo porcentaje de missing values:
Estos valores faltantes nos podrán general problemas para analizar los datos, veamos un poco los perfiles que faltan.
plot_intro(board_games)
Para visualizar el perfil de los datos faltantes podemos utilizar la función plot_missing(). En la visualización debajo, podemos ver que la variables compilation y expansion, son las que les falta información, encontramos de que sólo el 2.63% (compilation), 16.54% (expansion) de nuestras filas estén completas y probablemente esta varible no sea de mucha infomación. Por tanto la podemos eliminar de nuestro dataframe, ahorita mismo!!
plot_missing(board_games)
Eliminamos compilation y expansion de nuestro dataframe:
final_board_games <- drop_columns(board_games, c("description", "image", "name", "thumbnail", "game_id", "compilation","expansion", "family", "artist", "mechanic"))
final_board_games <- drop_columns(final_board_games, c("designer", "publisher"))
colnames(final_board_games)
## [1] "max_players" "max_playtime" "min_age" "min_players"
## [5] "min_playtime" "playing_time" "year_published" "category"
## [9] "average_rating" "users_rated"
final_board_games <- na.omit(final_board_games)
Podemos ver la más alta correlación en estas variables:
plot_correlation(na.omit(final_board_games), maxcat = 5L)
## Warning in dummify(data, maxcat = maxcat): Ignored all discrete features since
## `maxcat` set to 5 categories!
Ahora de una manera más detallada vamos a analizar las variables más correlacionadas entre sí. El top 10:
corr_cross(final_board_games, # name of dataset
max_pvalue = 0.05, # display only significant correlations (at 5% level)
top = 10 # display top 10 couples of variables (by correlation coefficient)
)
## Returning only the top 10. You may override with the 'top' argument
## Warning in theme_lares(legend = "top"): Font 'Arial Narrow' is not installed,
## has other name, or can't be found
### QQ plot
La gráfica Quantile-Quantile es una forma de visualizar la desvisión de una distribución de probabilidad específica.
Después de analizar estos gráficos, a menudo es beneficioso aplicar una transformación matemática (como logaritmo) para modelos como la regresión lineal. Para hacerlo, podemos usar la función plot_qq. De forma predeterminada, se compara con la distribución normal.
qq_data <- final_board_games[, c("min_playtime", "max_playtime", "min_age", "playing_time", "average_rating")]
plot_qq(qq_data, sampled_rows = 1000L)
En el gráfico, las columnas parecen sesgadas en ambas colas. Apliquemos una transformación logarítmica simple y grafiquemos de nuevo.
log_qq_data <- update_columns(qq_data, 1:5, function(x) log(x + 1))
plot_qq(log_qq_data, sampled_rows = 1000L)
Teniendo nuestras variables con mayor correlación vamos a graficarlas con geom point..:
final_board_games %>% ggplot(aes(x = min_playtime, y = min_age)) +
geom_point()
final_board_games %>% ggplot(aes(x = average_rating, y = min_age)) +
geom_point()
final_board_games %>% ggplot(aes(x = playing_time, y = average_rating)) +
geom_point()
final_board_games %>% ggplot(aes(x = users_rated, y = average_rating)) +
geom_point()
###Using vtree para explorar
Usamos vtree para observar la concentración de los datos por ejemplo para min_age, donde la mayoría de los datos se concentran en min_age de 8 años, 10 años y 12 años.
vtree(final_board_games, "min_age")
Usamos vtree para observar la concentración de los datos por ejemplo para min_players, tenemos casi un 69% para min 2 jugadores y cerca del 19% para min 3 jugadores.
vtree(final_board_games, "min_players")
Usamos vtree para observar la concentración de los datos por ejemplo para max_players, tenemos casi un 23% para máx 4 jugadores y cerca del 25% para máx 6 jugadores.
vtree(final_board_games, "max_players")
Se realizó una exploración de datos, donde primero eliminalos columnas que no tienen mucha significancia en la predicción de nuestra variable de calificación. Después vimos su correlación entre las existentes.
Se tiene más claro cuales son las variables más significativas a la predicción, se hizo una limpieza, tenemos datos más contundentes con los cuales comenzar nuestra predicción, menos outliers sobre todo.
Debido a que el problema intenta convencer a José de que sus juegos pudieron haber sido (en promedio) bien recibidos, y de cómo se espera que se reciban en un futuro, la variable de salida de nuestro problema es la calificación de los usuarios del sitio web. Esto puede hacerse de dos maneras: una regresión y tomar la calificación como una variable continua, o redondear y tomarlo como problema de clasificación (calificación discreta de 0 a 10). Las propuestas para estos casos son
Vamos a suponer que a la comunidad de juegos de mesa no les importa tanto el historial del autor del juego ni quién lo publique, por lo que esas columnas se eliminarían del análisis. Si José ve que sus juegos no hubieran gustado, al menos podrá tener un modelo con el cuál puede saber qué es lo que suele gustarle a la gente, por lo que podría hacer investigación de seguimiento para entablar las causas raíces.
Primero hacemos la separación de los datos en train y test. Todos los modelos usarán los mismos subconjuntos para poder evaluarlos y compararlos en un terreno nivelado.
library(caTools)
set.seed(0)
split = sample.split(final_board_games, SplitRatio=0.6)
data.train = subset(final_board_games, split=TRUE)
data.test = subset(final_board_games, split=FALSE)
library(caret)
library(doParallel)
set.seed(0)
control = trainControl(method="repeatedcv", repeats=5, search="random")
registerDoParallel(cores = parallel::detectCores() - 1)
model.svr = train(average_rating ~ ., data = drop_columns(data.train, "category"),
method = "svmRadial",
tuneLength = 15,
metric = "RMSE",
preProc = c("center", "scale"),
trControl = control)
model.svr
## Support Vector Machines with Radial Basis Function Kernel
##
## 1200 samples
## 8 predictor
##
## Pre-processing: centered (8), scaled (8)
## Resampling: Cross-Validated (10 fold, repeated 5 times)
## Summary of sample sizes: 1080, 1080, 1080, 1080, 1080, 1080, ...
## Resampling results across tuning parameters:
##
## sigma C RMSE Rsquared MAE
## 0.01226831 45.77096245 0.5971698 0.28603519 0.4569200
## 0.01450086 432.22566749 0.6077075 0.27828915 0.4600209
## 0.01733709 0.08424009 0.6385926 0.22166352 0.4933061
## 0.01797172 0.68418148 0.6089168 0.26137934 0.4676323
## 0.01949306 53.19382628 0.5923793 0.29802023 0.4532379
## 0.03197837 97.46893089 0.6050052 0.27990795 0.4595333
## 0.04891373 0.09331815 0.6188100 0.25343570 0.4756074
## 0.08517855 1.13103822 0.5900931 0.30271546 0.4517433
## 0.09135066 15.15147202 0.5944384 0.29497671 0.4532882
## 0.45152266 986.00398192 1.0261372 0.09002466 0.6915994
## 0.61653904 0.15882372 0.6108620 0.26636552 0.4694599
## 1.29998370 10.85267954 0.6525816 0.20588346 0.5030971
## 1.34663993 0.16233196 0.6224801 0.24125207 0.4783713
## 1.35594685 0.51325259 0.6090114 0.25717566 0.4658292
## 4.87616608 0.47422243 0.6315189 0.20311225 0.4874107
##
## RMSE was used to select the optimal model using the smallest value.
## The final values used for the model were sigma = 0.08517855 and C = 1.131038.
plot_qq(predict(model.svr, newdata=data.test) - data.test$average_rating)
Creamos el clusgter local con todos los cores disponibles de la siguiente forma: Se eliminan los datos del cluster por si ya había sido inicializado. Tras iniciar el cluster (local), se muestran por pantalla sus características, entre las que están: el número de cores activados (4), la memoria total del cluster (5.32 GB), el número de nodos (1 porque se está empleando un único computador) y el puerto con el que conectarse a la interfaz web de H2O (http://localhost:54321/flow/index.html).
# inicialización de h2o
h2o.init(
ip = "localhost",
# -1 indica que se empleen todos los cores disponibles.
nthreads = -1,
# Máxima memoria disponible para el cluster.
max_mem_size = "6g"
)
## Connection successful!
##
## R is connected to the H2O cluster:
## H2O cluster uptime: 7 minutes 36 seconds
## H2O cluster timezone: America/Mexico_City
## H2O data parsing timezone: UTC
## H2O cluster version: 3.32.1.3
## H2O cluster version age: 1 month and 23 days
## H2O cluster name: H2O_started_from_R_Gabo_ljy373
## H2O cluster total nodes: 1
## H2O cluster total memory: 6.00 GB
## H2O cluster total cores: 12
## H2O cluster allowed cores: 12
## H2O cluster healthy: TRUE
## H2O Connection ip: localhost
## H2O Connection port: 54321
## H2O Connection proxy: NA
## H2O Internal Security: FALSE
## H2O API Extensions: Amazon S3, Algos, AutoML, Core V3, TargetEncoder, Core V4
## R Version: R version 4.1.0 (2021-05-18)
h2o.removeAll()
h2o.no_progress()
La carga de datos puede hacerse directamente al cluster H2O, o bien cargándolos primero en memoria en la sesión de R y después transfiriéndolos. La segunda opción no es aconsejable si el volumen de datos es muy grande.
Para nuestro caso el conjunto de datos de turbines es suficientemente pequeño y lo podemos almacenar en memoria, por tanto lo podemos llamar con la siguiente función.
Antes de hacer la separación tengamos claro la diferencia entre estas particiones del conjunto de datos:
Datos de train: la muestra de los datos utilizada para ajustar el modelo.
Datos de validación: la muestra de datos que se utiliza para proporcionar una evaluación imparcial de un ajuste de modelo en el conjunto de datos de train mientras se ajustan los hiperparámetros del modelo. La evaluación se vuelve más sesgada a medida que la habilidad del conjunto de datos de validación se incorpora a la configuración del modelo.
Datos de test: la muestra de datos utilizada para proporcionar una evaluación imparcial de un ajuste final del modelo en el conjunto de datos de entrenamiento.
La función h2o.splitFrame() realiza particiones aleatorias, pero no permite hacerlas de forma estratificada, por lo que no asegura que la distribución de clases de variable respuesta sea igual en todas particiones. Esto puede ser problemático con datos muy desbalanceados (alguno de los grupos es muy minoritario).
En el momento en que consideremos la validación, debemos agregar en los ratios el porcentaje de la validación, en este caso será train (60%), validación (20%) y test (20%). En la semilla se le agrega el el numeral 4 y se adiciona un nuevo subconjunto de datos, entendiendo que el 1 es train, el 2 es validación y el 3 es test.
datos_h2o <- as.h2o(x = final_board_games, destination_frame = "datos_h2o")
datos_train_h2o <- as.h2o(x = data.train, key = "datos_train_h2o")
datos_valid_h2o <- as.h2o(x = data.test, key = "datos_valid_h2O")
La función para este modelo en h2o es h2o.randomForest. Dentro de ella debemos de especificar los datos de train que convertimos dentro de h2o y, si así lo queremos los datos de validación. Para cuando no queremos utilizar datos de validación esta línea se omite dentro del modelo cambia la partición del conjunto de datos. Se descartan las columnas categóricas , usamos solo las númericas para este random forest, también quitamos el object_id, solo nos interesa el rango x = c(1, 2, 3, 4, 5, 6, 7, 8, 10), y sy predicción que es la y = 9.
model.h2o.rf = h2o.randomForest(
training_frame = datos_train_h2o,
validation_frame = datos_valid_h2o,
x = c(1, 2, 3, 4, 5, 6, 7, 8, 10),
y = 9,
model_id = "rf_covType_v1",
ntrees = 200,
stopping_rounds = 2,
score_each_iteration = T,
seed = 26
)
## Warning in .h2o.processResponseWarnings(res): Dropping bad and constant columns: [category].
summary(model.h2o.rf)
## Model Details:
## ==============
##
## H2ORegressionModel: drf
## Model Key: rf_covType_v1
## Model Summary:
## number_of_trees number_of_internal_trees model_size_in_bytes min_depth
## 1 24 24 181371 19
## max_depth mean_depth min_leaves max_leaves mean_leaves
## 1 20 19.95833 519 648 596.62500
##
## H2ORegressionMetrics: drf
## ** Reported on training data. **
## ** Metrics reported on Out-Of-Bag training samples **
##
## MSE: 0.3763041
## RMSE: 0.6134363
## MAE: 0.4666793
## RMSLE: 0.08950471
## Mean Residual Deviance : 0.3763041
##
##
## H2ORegressionMetrics: drf
## ** Reported on validation data. **
##
## MSE: 0.07822108
## RMSE: 0.2796803
## MAE: 0.2091356
## RMSLE: 0.04187238
## Mean Residual Deviance : 0.07822108
##
##
##
##
## Scoring History:
## timestamp duration number_of_trees training_rmse training_mae
## 1 2021-07-12 22:21:57 0.009 sec 0 NA NA
## 2 2021-07-12 22:21:57 0.057 sec 1 0.77049 0.58470
## 3 2021-07-12 22:21:57 0.068 sec 2 0.76633 0.57900
## 4 2021-07-12 22:21:57 0.080 sec 3 0.77019 0.58158
## 5 2021-07-12 22:21:57 0.092 sec 4 0.75403 0.56547
## training_deviance validation_rmse validation_mae validation_deviance
## 1 NA NA NA NA
## 2 0.59366 0.51179 0.28043 0.26193
## 3 0.58726 0.42483 0.26591 0.18048
## 4 0.59319 0.38858 0.26216 0.15099
## 5 0.56855 0.35855 0.24822 0.12856
##
## ---
## timestamp duration number_of_trees training_rmse training_mae
## 20 2021-07-12 22:21:57 0.266 sec 19 0.62501 0.47443
## 21 2021-07-12 22:21:57 0.279 sec 20 0.62198 0.47202
## 22 2021-07-12 22:21:57 0.293 sec 21 0.61751 0.46833
## 23 2021-07-12 22:21:57 0.307 sec 22 0.61407 0.46697
## 24 2021-07-12 22:21:57 0.321 sec 23 0.61315 0.46671
## 25 2021-07-12 22:21:57 0.336 sec 24 0.61344 0.46668
## training_deviance validation_rmse validation_mae validation_deviance
## 20 0.39064 0.28025 0.20831 0.07854
## 21 0.38686 0.27978 0.20910 0.07828
## 22 0.38132 0.27927 0.20869 0.07799
## 23 0.37708 0.27917 0.20867 0.07794
## 24 0.37595 0.27978 0.20909 0.07827
## 25 0.37630 0.27968 0.20914 0.07822
##
## Variable Importances: (Extract with `h2o.varimp`)
## =================================================
##
## Variable Importances:
## variable relative_importance scaled_importance percentage
## 1 users_rated 3342.581055 1.000000 0.384123
## 2 year_published 1283.283447 0.383920 0.147473
## 3 min_age 867.435059 0.259511 0.099684
## 4 max_playtime 832.819092 0.249154 0.095706
## 5 max_players 726.956238 0.217484 0.083541
## 6 playing_time 705.895447 0.211183 0.081120
## 7 min_playtime 531.880310 0.159123 0.061123
## 8 min_players 410.990631 0.122956 0.047230
Primero haremos todas la configuraciones predeterminadas y luego comenzaremos a hacer algunos cambios donde se describen los parámetros y los valores predeterminados.
Podemos observar una estructura muy similar a la del random forest, ahora utilizaremos la función h2o.gbm.. NOTA: En la mayoría de los algorimos el primero es para regresión y el segundo para clasificación.
gbm_model <- h2o.gbm(
training_frame = datos_train_h2o, # datos de h2o para training
validation_frame = datos_valid_h2o, # datos de h2o para validación (no es requerido)
x = c(1, 2, 3, 4, 5, 6, 7, 8, 10),, # Las columnas predictoras, por índice
y = 9, # La columna que queremos predecir, variable objetivo
model_id = "gbm_covType1", # nombre del modelo en h2o
seed = 2000000 # Establecer una semilla aleatoria para que se pueda reproducir
)
## Warning in .h2o.processResponseWarnings(res): Dropping bad and constant columns: [category].
summary(gbm_model)
## Model Details:
## ==============
##
## H2ORegressionModel: gbm
## Model Key: gbm_covType1
## Model Summary:
## number_of_trees number_of_internal_trees model_size_in_bytes min_depth
## 1 50 50 14873 5
## max_depth mean_depth min_leaves max_leaves mean_leaves
## 1 5 5.00000 8 30 19.02000
##
## H2ORegressionMetrics: gbm
## ** Reported on training data. **
##
## MSE: 0.2185903
## RMSE: 0.4675364
## MAE: 0.3519328
## RMSLE: 0.06912309
## Mean Residual Deviance : 0.2185903
##
##
## H2ORegressionMetrics: gbm
## ** Reported on validation data. **
##
## MSE: 0.2185903
## RMSE: 0.4675364
## MAE: 0.3519327
## RMSLE: 0.0691231
## Mean Residual Deviance : 0.2185903
##
##
##
##
## Scoring History:
## timestamp duration number_of_trees training_rmse training_mae
## 1 2021-07-12 22:21:58 0.007 sec 0 0.70250 0.55211
## 2 2021-07-12 22:21:58 0.011 sec 1 0.67528 0.52937
## 3 2021-07-12 22:21:58 0.015 sec 2 0.65160 0.50987
## 4 2021-07-12 22:21:58 0.018 sec 3 0.63177 0.49330
## 5 2021-07-12 22:21:58 0.022 sec 4 0.61405 0.47786
## training_deviance validation_rmse validation_mae validation_deviance
## 1 0.49351 0.70250 0.55211 0.49351
## 2 0.45600 0.67528 0.52937 0.45600
## 3 0.42459 0.65160 0.50987 0.42459
## 4 0.39913 0.63177 0.49330 0.39913
## 5 0.37706 0.61405 0.47786 0.37706
##
## ---
## timestamp duration number_of_trees training_rmse training_mae
## 46 2021-07-12 22:21:58 0.170 sec 45 0.47172 0.35544
## 47 2021-07-12 22:21:58 0.173 sec 46 0.47034 0.35458
## 48 2021-07-12 22:21:58 0.176 sec 47 0.46927 0.35393
## 49 2021-07-12 22:21:58 0.179 sec 48 0.46884 0.35334
## 50 2021-07-12 22:21:58 0.182 sec 49 0.46844 0.35295
## 51 2021-07-12 22:21:58 0.185 sec 50 0.46754 0.35193
## training_deviance validation_rmse validation_mae validation_deviance
## 46 0.22252 0.47172 0.35544 0.22252
## 47 0.22122 0.47034 0.35458 0.22122
## 48 0.22022 0.46927 0.35393 0.22022
## 49 0.21981 0.46884 0.35334 0.21981
## 50 0.21944 0.46844 0.35295 0.21944
## 51 0.21859 0.46754 0.35193 0.21859
##
## Variable Importances: (Extract with `h2o.varimp`)
## =================================================
##
## Variable Importances:
## variable relative_importance scaled_importance percentage
## 1 users_rated 896.666321 1.000000 0.516416
## 2 max_playtime 228.801926 0.255170 0.131774
## 3 year_published 179.416794 0.200093 0.103331
## 4 min_age 148.822052 0.165973 0.085711
## 5 max_players 129.632812 0.144572 0.074659
## 6 min_playtime 104.335167 0.116359 0.060090
## 7 min_players 48.491657 0.054080 0.027928
## 8 playing_time 0.157314 0.000175 0.000091
Podemos ver la evolución del modelo, para evaluar cómo aprende el modelo a medida que se añaden nuevos árboles al ensamble.
h2o almacena las métricas de entrenamiento y test bajo el nombre de scoring. Los valores se encuentran almacenados dentro del modelo.
scoring <- as.data.frame(gbm_model@model$scoring_history)
head(scoring)
En los modelos GBM, se puede estudiar la influencia de los predictores cuantificando la reducción total de error cuadrático que ha conseguido cada predictor en el conjunto de todos los árboles que forman el modelo.
importancia <- as.data.frame(gbm_model@model$variable_importances)
importancia
ggplot(data = importancia,
aes(x = reorder(variable, scaled_importance), y = scaled_importance)) +
geom_col() +
coord_flip() +
labs(title = "Importancia de los predictores en el modelo GBM",
subtitle = "Importancia en base a la reducción del error cuadrático medio",
x = "Predictor",
y = "Importancia relativa") +
theme_bw()
En los modelos GBM, se puede estudiar la influencia de los predictores cuantificando la reducción total de error cuadrático que ha conseguido cada predictor en el conjunto de todos los árboles que forman el modelo.
gbm_model_2 <- h2o.gbm(
training_frame = datos_train_h2o, # datos de h2o para training
validation_frame = datos_valid_h2o, # datos de h2o para validación (no es requerido)
x = c(2:3,5:11), # Las columnas predictoras, por índice
y = 4, # La columna que queremos predecir, variable objetivo
model_id = "gbm_covType1", # nombre del modelo en h2o
ntrees = 200,
max_depth = 30,
stopping_rounds = 2,
stopping_tolerance = 1e-2,
seed = 2000000 # Establecer una semilla aleatoria para que se pueda reproducir
)
## Warning in .h2o.processResponseWarnings(res): Dropping bad and constant columns: [category].
## early stopping is enabled but neither score_tree_interval or score_each_iteration are defined. Early stopping will not be reproducible!.
gbm_model_2@model$validation_metrics
## H2ORegressionMetrics: gbm
## ** Reported on validation data. **
##
## MSE: 0.007926617
## RMSE: 0.08903155
## MAE: 0.05606627
## RMSLE: 0.03122496
## Mean Residual Deviance : 0.007926617
Una vez hemos ajustado el modelo, se puede predecir nuevas observaciones y estimar el error de test.
# Predictores para el modelo de random forest
predicciones <- h2o.predict(
object = model.h2o.rf,
newdata = datos_valid_h2o
)
head(predicciones)
# Predictores para el modelo de GBM
predicciones_2 <- h2o.predict(
object = gbm_model,
newdata = datos_valid_h2o
)
head(predicciones_2)
En total se tuvieron 4 modelos: Support Vector Regression, Random Forest, Gradient Boosting Machine y un GBM alternativo. Revisemos sus errores de entrenamiento y de prueba.
svr.rmse.train = min(model.svr$results$RMSE)
svr.rmse.test = ModelMetrics::rmse(predict(model.svr, newdata=data.test), data.test$average_rating)
rf.rmse.train = tail(model.h2o.rf@model$scoring_history$training_rmse, 1)
rf.rmse.test = tail(model.h2o.rf@model$scoring_history$validation_rmse, 1)
gbm1.rmse.train = tail(gbm_model@model$scoring_history$training_rmse, 1)
gbm1.rmse.test = tail(gbm_model@model$scoring_history$validation_rmse, 1)
gbm2.rmse.train = tail(gbm_model_2@model$scoring_history$training_rmse, 1)
gbm2.rmse.test = tail(gbm_model_2@model$scoring_history$validation_rmse, 1)
De izquierda a derecha: RMSE de entrenamiento de SVR, RF, GBM1 y GBM2
barplot(c(svr.rmse.train, rf.rmse.train, gbm1.rmse.train, gbm2.rmse.train))
De izquierda a derecha: RMSE de validación de SVR, RF, GBM1 y GBM2
barplot(c(svr.rmse.test, rf.rmse.test, gbm1.rmse.test, gbm2.rmse.test))
Recordemos que todos los modelos usan el mismo subconjunto de entrenamiento y de validación, y todos presentan una retroalimentación para la optimización de hiperparámetros. Parece que el mejor modelo es el GBM2, pues tiene un error de entrenamiento y de validación mucho más bajos que los otros.
La exploración de datos es una fase muy importante en el ciclo de vida de un proyecto de ciencia de datos. El entender la distribución de las variables te da una idea mucho más clara de qué es lo que podrías usar para predecir la salida que se necesita; aunque el entendimiento del negocio es una fase que puede tomar un tiempo más largo (nosotros tuvimos la suerte de que ya entendíamos cómo funcionaba el sitio web en el que se basa el conjunto de datos que usamos).
Las mil y una formas de implementar un modelo predictivo también se convierten en una barrera para seguir el proyecto: ¿cuál de todas las opciones es la mejor para el problema que se tiene? ¿Cómo justificas usar un Random Forest contra una red neuronal? (Seguramente con práctica y pericia).
Johan A K Suykens, Tony Van Gestel, Jos De Brabanter, BartDe Moor, and Joos Vandewalle.Least Squares Support VectorMachines. World Scientific,2002. ISBN9789812381514. URLhttps://www.worldscientific.com/worldscibooks/10.1142/5089.
https://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/reference/h2o.randomForest.html
Joaquín Amat Rodrigo, Machine Learning con H2O y R. Abril 2020. https://rpubs.com/Joaquin_AR/406480